1
การนิยามความเหมาะสมในขั้นตอนการอนุมานทางสถิติ
MATH003Lesson 8
00:00
ในดินแดนกว้างใหญ่ของข้อมูลเชิงสถิติ เราเป็นนักล่าที่แสวงหาความจริง—พารามิเตอร์จริง $\psi(\theta)$ แต่เราจะตัดสินใจได้อย่างไรว่าลูกศรใด (ตัวประมาณค่า) ดีที่สุด? ความเหมาะสม ไม่ใช่เพียงความรู้สึกคลุมเครือ; มันคือศิลปะทางคณิตศาสตร์ในการลดความสูญเสีย ในการหาตัวประมาณค่าที่ 'ดีที่สุด' เราจึงพึ่งพาค่าเฉลี่ยกำลังสอง (MSE) ซึ่งแยกออกอย่างสวยงามเป็นแรงตึงระหว่างสองแรงพื้นฐาน: ความแปรปรวน และ เบี่ยงเบน.

การกำหนดมาตรฐานทองคำ: เอ็มเอสอี

เพื่อวัดว่าการคาดเดาของเรา $T$ ห่างจากความจริง $\psi(\theta)$ แค่ไหน เราจึงนิยาม ค่าเฉลี่ยกำลังสอง (นิยาม 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

นี่คือระยะทางกำลังสองเฉลี่ยระหว่างตัวประมาณค่ากับเป้าหมาย ตัวประมาณค่าที่สมบูรณ์แบบควรจะมีค่าเอ็มเอสอีเป็นศูนย์ แต่ในโลกที่มีเสียงรบกวนแบบสุ่ม เราพยายามลดค่านี้ให้น้อยที่สุด

ทฤษฎีบท 8.1.1: โครงสร้างของความผิดพลาด

ทำไมตัวประมาณค่าถึงล้มเหลว? ทฤษฎีบท 8.1.1 ให้แผนผังแก้ไขปัญหา หาก $T$ มีโมเมนต์ลำดับที่สองจำกัด ความผิดพลาดเมื่อเทียบกับค่าคงที่ใดๆ $c$ จะถูกกำหนดโดย:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

สูตรนี้ชี้ให้เห็นว่าความผิดพลาดกำลังสองรวมทั้งหมดจะถูกลดลง เฉพาะเมื่อ เมื่อเราเลือก $c = E(T)$ ในบริบทของการอนุมาน เราตั้ง $c = \psi(\theta)$ นำไปสู่การแยกตามที่เป็นที่รู้จักกันดี:

เอ็มเอสอี = ความแปรปรวน + เบี่ยงเบน$^2$

การแลกเปลี่ยนระหว่างความแม่นยำและความถูกต้อง

ลองนึกภาพเครื่องชั่งสองตัวในห้องควบคุมคุณภาพ:

  • เครื่องชั่งโบราณที่แม่นยำ: มันให้ค่ามวลเดิมเสมอ (ความแปรปรวนต่ำ) แต่ตั้งค่าผิดไป 2 กรัม (เบี่ยงเบนสูง)
  • ภูมิปัญญาที่ผันผวน: มันถูกต้องในค่าเฉลี่ย (เบี่ยงเบนเป็นศูนย์) แต่สั่นไหวอย่างมากระหว่างการวัด (ความแปรปรวนสูง)

ทฤษฎีบท 8.1.1 ช่วยให้เราคำนวณได้อย่างแม่นยำว่าเครื่องชั่งใดให้ความผิดพลาดรวมต่ำกว่า บ่อยครั้งเราสามารถยอมรับการเบี่ยงเบนระบบเล็กน้อย (เบี่ยงเบน) ถ้ามันช่วยลดเสียงรบกวน (ความแปรปรวน) ได้อย่างมาก

ตัวอย่าง 8.1.1: ความเพียงพอและการให้ข้อมูล

ความเหมาะสมเกี่ยวข้องกับ ข้อมูล. พิจารณาชุดตัวอย่าง $S = \{1, 2, 3, 4\}$ หากผลลัพธ์ 2, 3 และ 4 มีความน่าจะเป็นเท่ากันภายใต้พารามิเตอร์ทุกแบบ พวกเขาจะมี ความน่าจะเป็นเดียวกัน. เราสามารถนิยามตัวแปรเพียงพอ $U$ ที่รวมผลลัพธ์เหล่านี้เข้าด้วยกัน โดยไม่สูญเสียความสามารถในการอนุมานที่เหมาะสม ตามที่แสดงในโปรแกรมจำลอง หาก $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$ ตัวประมาณค่าที่เหมาะสมจะมองเห็นพวกมันเป็นเหตุการณ์ที่ให้ข้อมูลเพียงเหตุการณ์เดียว

หลักการสำคัญ
ตัวประมาณค่าจะเหมาะสมที่สุดเมื่อมันลดความสูญเสียคาดการณ์ให้น้อยที่สุด สำหรับความสูญเสียแบบกำลังสอง หมายถึงการหาจุดที่ผลรวมของความแปรปรวนและเบี่ยงเบน² อยู่ที่ต่ำสุดสุด